LOD 技术 在 德国 图 书 档案 馆 的 应 用 


BA 
哈尔滨 商业 大 学 图 书馆 哈尔滨 150028 


摘要 : [目的 / 意 妇 关联 开放 数据 (LOD) 已 广泛 应 用 于 很 多 产业 、 非 营利 性 组 织 和 政府 。 图 书 档案 馆 是 
LOD 技术 的 早期 使 用 者 之 一 ， 这 也 促进 了 LOD 技术 的 发 展 ， 德 国 是 图 书 档案 馆 业 非常 发 达 的 国家 ， 有 很 
多 LOD 应 用 于 图 书 档案 馆 中 的 成 功 案例 。[ 方 法 /过 程 ] 采 用 文献 调研 网络 调 查 、 内 容 分 析 法 ， 分 析 LOD 技术 
在 德国 图 书 档案 馆 中 成 功 应 用 的 案例 。[ 结 果 / 结 论 ] 案 例 揭示 了 在 计算 机 科学 领域 ， 如 人工 智能 、 数 据 库 和 图 
书 档案 馆 研究 课题 之 间 的 关系 。 总 结 了 德国 的 实践 经 验 ， 为 我 国 发 展 相 关 的 实践 提供 更 多 的 参考 。 
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1 引言 
德国 有 8 000 多 家 公立 图 书 档 案 馆 ， 其 中 约 一 半 为 州立 、 市 立 图 书 档案 馆 ， 一 半 为 教会 图 书 档案 馆 ， 还 
有 私立 图 书 档 案 馆 10 000 多 家 ， 平 均 约 4000 多 人 就 有 一 家 图 书 档案 馆 。 可见 ， 德 国 是 图 书 档 案 馆 业 发 达 国 


S 
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越 来 越 多 的 国家 和 国际 组 织 更 加 重视 数字 图 书 档案 馆 之 间 的 合作 。 越 来 越 多 的 用 户 将 数据 发 布 到 网 络 
上 ， 形 成 了 全 球 性 的 数据 网 络 (Web of Data). 与 文档 网 络 相 比 ， 结 构 化 的 数据 网 络 形成 了 更 加 复杂 的 关系 网 
更 容易 检索 Web 数据 ， 人 和 机 器 也 更 容易 理解 这 些 数据 。2017 年 2 月 和 ，W3C 项 目 发 布 了 新 的 关联 开放 数 
据 云图 (Linked Open Data Cloud, LOD Cloud)， 见 图 1， 建立 了 新 的 视觉 模型 ， 开 放 关联 数据 集 的 数量 增长 
了 数 十 倍 达 到 了 几 百 个 ， 内 容 包含 了 出 版 物 、 中 领域 媒体、 语言 学 .地 理 、 用 户 生成 内 容 .政府 、 环 境 、 生命 科 
学 和 社交 网 络 等 多 个 领域 .LOD 将 多 个 领域 关联 开放 数据 资源 集成 为 一 个 可 视 化 的 互联 网 络 。 从 情报 学 的 角 
度 分 析 ， 这 是 在 引证 、 合 著 等 知识 网 络 后 的 新 的 网 络 型 态 。 

近年 来 ， 数 字 图 书 档案 馆 进一步 促进 信息 资源 共享 ， 而 数字 图 书 档案 馆 面临 的 问题 是 如 何 提供 对 大 量 
数据 访问 的 服务 ， 这 些 数据 是 隐藏 的 、 不 可 访问 的 ， 并 且 存 储 在 数据 坚 井中 。 随 着 Web 对 异 构 数据 访问 技术 
的 发 展 ，LOD 可 以 实现 对 元 数据 的 发 布 ， 这 将 使 图 书 档案 馆 的 馆藏 资源 能 够 以 可 持续 的 方式 被 搜索 、 链 接 
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和 访问 外 。 男 一 方面 ，LOD 是 运用 语义 技术 发 布 和 共享 信息 的 最 佳 方 法 ， 并 且 可 以 访问 大 量 的 异 构 数 据 ， 
这 可 以 激发 更 多 应 用 程序 的 开发 。LOD 可 以 帮助 数字 图 书 档 案 馆 摆脱 数据 竖井 ， 将 其 数据 发 布 成 为 结构 化 
数据 ， 并 为 图 书 档 案 馆 带 来 很 多 应 用 价值 外。 


图 1 关联 开放 数据 云图 


2 德国 数字 图 书 档案 馆 的 成 功 案例 
德国 数字 图 书 档案 馆 的 成 功 案例 描述 了 数字 图 书 档案 馆 在 信息 供应 方面 的 不 同 需求 ， 并 总 结 了 相关 数 
据 技术 是 如 何 满足 这 些 需 求 的 。 此 外 ， 明 确 了 LOD 技术 在 数字 图 书 档案 馆 应 用 中 的 主要 优势 。 


2.1 关联 数据 价值 链 的 成 功 应 用 

德国 数字 图 书 档案 馆 的 研究 项 目 将 公开 可 用 数据 转换 为 关联 数据 。 绝 大 多 数 的 数据 都 是 由 研究 机 构 产 
生 的 。 将 关联 数据 价值 链 〈 见 图 2) 引入 到 商业 工程 师 的 模型 中 ， 可 以 使 成 功 商业 案例 概念 化 ， 确 定 角 色 的 
分 配 、 组 合 和 参与 ， 但 所 选择 的 数据 及 其 转换 过 程 可 能 存在 固有 的 风险 ， 例 如 : 使 用 权限 、 隐 私 策略 、 数 据 
可 用 性 和 角色 激励 、 数 据 质 量 和 可 信和 度 、 数 据 来 源 、 透 明 数据 转换 和 互 连 等 。 

ASEM ERAGE HL (Leibniz Information Centre for Economics, ZBW) 将 关联 数据 价值 链 应 用 
到 BBC 的 现 有 业务 案例 中 ， 并 在 此 过 程 中 对 潜在 的 风险 进行 了 测试 。 总 的 来 说 ， 关 联 数据 价值 链 有 助 于 识 
别 和 分 类 潜在 的 风险 ， 这 些 风险 可 由 相应 的 工程 师 来 处 理 ， 而 且 还 建立 了 能 清晰 了 解 完整 关联 数据 生成 周 
期 的 方法 。 这 个 模型 易于 在 其 他 学 科 中 应 用 ， 如 数字 图 书 档 案 馆 、 生 命 科学 和 媒体 等 ， 有 助 于 关联 数据 的 发 
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关联 数据 应 用 


人 类 可 读 的 数据 


图 2 关联 数据 价值 链 模 型 


2.2 LOD 技术 在 数字 期 刊 中 检索 作者 信息 的 应 用 


LOD 技术 在 数字 期 刊 中 的 应 


价值 之 一 是 可 以 通过 关联 数据 来 实现 现实 世界 作者 与 数字 期 刊 中 作者 的 


联系 。 在 ZBW 数字 环境 分 析 系 统 中 ， 在 处 理 与 人 有 关 的 信息 时 面临 的 问题 是 作者 姓名 识别 和 消除 歧义 。 分 


析 系 统 在 个 人 资料 中 找到 相关 的 个 人 信息 ， 如 专业 知识 ， 对 社交 媒体 的 影响 以 及 出 版 物 的 数量 等 。 基 于 


LOD 的 分 析 系 统 可 以 在 组 织 和 机 构 的 人 员 分 配 等 方面 发 挥 至 关 重 要 的 作用 。 因 此 ， 找 到 有 关 作 者 的 正确 信 
息 对 于 提高 数字 期 刊 的 整体 可 见 性 和 效率 至 关 重 要 四。 


在 LOD 的 基础 上 ， 德 国 科 学 家 开发 了 CAF-SIAL 平台 ， 见 图 3， 可 以 搜索 并 提供 来 自 关 联 数据 人 员 信 


息 (http://cafsial.lod-mania.com) 。 


CAF-SIAL 平台 运用 一 组 启发 式 技术 ， 将 一 个 人 的 相关 信息 从 DBpedia 


中 识别 出 来 ， 通 过 对 “URT" 技 术 应 用 一 个 “关键 字 ” 来 提取 。 这 个 提取 的 信息 被 进一步 过 滤 ， 并 集成 到 一 


个 概念 聚合 框架 下 ， 这 个 框架 随后 被 呈现 为 一 个 概要 文件 口 。 
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图 3 作者 信息 集成 模型 " 

在 图 书 档案 馆 环 境 中 ，DBpedia 和 DBLP 体现 了 应 用 程序 的 实用 性 ， 进 一 步 扩展 了 数字 期 刊 作者 与 
LOD 的 相关 语义 资源 之 间 的 联系 。 通 过 该 应 用 程序 能 够 识别 、 消 除 歧义 ， 检 索 和 构造 有 关 来 自 这 些 数 据 集 的 
作者 的 相关 信息 。 该 系统 构建 了 一 个 全 面 的 作者 资料 库 ， 可 以 提供 作者 信息 (个 人 和 专业 信息 )， 并 列 出 他 的 
学 术 成 果 Chttp://dblp.13s.de/d2r/) 。 

这 类 系统 可 以 应 用 在 更 广泛 的 学 术 交 流 领域 中 。 搜 索 的 主体 可 以 扩展 到 集成 的 权限 文件 ， 如 德国 国家 
图 书 档案 馆 的 综合 授权 文件 (GND) C http:/www.dnb.de/EN/gnd ) 和 虚拟 国际 权威 文件 (VIAP) 
Chttps://viaf.org/) ， 以 获得 更 多 完整 的 结果 。 权 限 文件 所 包含 的 关键 词 和 描述 符 在 编目 过 程 中 被 分 配给 一 
个 出 版 物 ， 这 样 可 以 进一步 简化 搜索 和 检索 过 程 。 


2.3 LOD 技术 在 关联 数据 发 布 的 应 用 

在 过 去 的 几 年 里 ，LOD 对 的 数据 的 开放 起 到 了 重大 作用 ， 并 已 成 为 最 重要 的 类 库 应 用 程序 之 一 。 这 些 
存储 库 是 用 于 收集 、 发 布 、 传 播 和 存档 数字 科学 内 容 的 系统 。 在 数字 图 书 档案 馆 的 应 用 方面 ， 
使 存储 库 中 的 科学 论文 的 元 数据 以 机 器 可 读 的 方式 提供 给 读者 〈http:/econstoreu) 。EconStor 是 德国 国家 经 
济 图 书 档案 馆 的 开放 访问 服务 器 ， 为 出 版 经 济 学 研究 论文 提供 了 平台 .EconStor 目前 提供 近 100 个 机 构 的 科 
学 论文 以 及 超过 8 万 份 完整 的 文本 文件 的 全 文 访问 四。 

DRQ 框架 可 以 将 关系 数据 集 转换 为 可 理解 的 语句 ， 并 将 EconStor 存储 库 数据 发 布 为 关联 数据 
Chttp:/d2rq.org/) WAD ， 步 又 如 下 : 第 一 步 ， 将 开放 存储 库 作 为 关系 数据 库 ， 第 二 步 ， 通 过 使 用 词 
汇 表 ， 将 出 版 物 和 作者 映射 到 DzR 服务 器 转换 为 映射 文件 ， 最 后 ， 存 储 库 数据 通过 使 用 D2R 服务 器 进行 转 
换 ， 并 将 其 作为 关联 数据 和 SPARQL 端点 进行 查询 Chttp://linkeddata.econstor.eu/beta/snorql/.) . 存储 库 的 内 
容 可 以 直接 作为 关联 开放 数据 发 布 ， 并 且 能 够 关联 到 有 价值 的 外 部 数据 集 ， 从 而 使 存储 库 中 的 数据 能 够 上 
下 文 关联 并 有 意义 。 通 过 将 EconStor 作为 关联 数据 库 发 布 实现 了 以 下 预期 目标 : 通过 将 科学 论文 发 表 在 语 
义 网 上 ， 从 而 使 当前 研究 成 果 能 够 出 版 和 传播 ， 成功 地 使 典型 的 存储 库 系 统 ( 如 DSpace) 转 变 成 语义 Web FF 


EconStor 可 以 
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放 内 容 ， 并 将 其 集成 到 关联 数据 流 中 ;通过 SPARL 查询 模式 ， 使 查询 分 布 式 的 研究 信息 成 为 可 能 ， 如 可 
以 查询 2012 年 之 后 由 欧洲 研究 机 构 出 版 的 所 有 关于 金融 危机 的 文章 。 


将 EconStor 作为 关联 数据 发 布 ， 对 mashup 应 用 程序 〈 这 些 应 用 程序 可 以 从 不 同 的 相关 关联 数据 存储 


中 对 数据 进行 管理 ) 的 开发 带 来 了 潜在 的 影响 。 从 软件 工程 的 角度 来 看 ， 该 研究 提供 了 将 存储 库 的 内 容 发 


布 为 关联 开放 数据 的 方法 。 因 此 ， 图 书 档案 馆 
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i 


、 仓 库 管 理 员 和 软件 开发 人 员 对 此 都 产生 了 极 大 的 兴趣 
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图 4 EconStor 关联 数据 发 布 模型 3 
图 书 档案 馆 科 学 中 LOD 的 研究 


3.1 实体 解析 


“实体 解析 ” 指 的 是 识别 两 种 关联 开放 数据 中 的 资源 是 否 指 向 同一 个 真实 世界 中 的 实体 。 这 是 一 项 具 


有 挑战 性 的 任务 ， 因 为 资源 没有 自己 的 身份 ， 其 意义 仅 通 过 语义 描述 和 连接 资源 的 属性 来 定义 ， 解 决 这 个 


问题 的 一 种 方法 是 通过 手动 调整 。 德 国 国家 图 书 档案 馆 的 综合 管理 局 文件 包含 与 DBpedia 等 相关 的 作者 信 


息 外 ,然而 ， 手 动 调 整 非常 耗费 人 力 ， 并 且 不 可 能 实现 大 型 数据 集 的 合并 。 如 DBpedia 数据 库 中 包含 364 000 
个 数据 ， 德 国 国家 图 书 管理 局 数据 库 中 包含 1 797 911 个 数据 ， 国 会 图 书馆 数据 库 中 包含 3 800 000 个 数据 ， 


虚拟 国际 权威 档案 (VIAF) KAVA 1 000 万 个 数据 (VIAF 组 合 了 不 同 国家 图 书 档案 馆 的 多 个 名 称 权限 文 


件 ) 


， 这 些 数 据 库 都 非常 庞大 ， 因此 ， 仅 通过 姓名 、 合 作者 、 职 称 和 地 点 对 其 进行 实体 解析 通常 是 不 够 的 
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3.2 模式 匹配 

模式 匹配 与 实体 解析 所 面临 的 问题 相似 。 链 接 开 放 数 据 的 目标 是 通过 参考 其 他 现 有 词汇 的 概念 来 定义 
和 发 布 自 有 词汇 。 然 而 ， 不 同 词汇 的 整合 以 及 他 们 所 描述 的 数据 都 是 很 重要 的 ， 即 使 是 具有 类 似 模式 的 数 
据 库 也 是 如 此 。 在 运用 模式 集成 来 改进 图 书 档 案 馆 服务 的 过 程 中 对 模式 匹配 质量 要 求 是 非常 高 的 中 。 因此 ， 
通过 人 工 调 整 氢 词 表 的 方法 来 对 不 同 作品 进行 模式 匹配 。 如 ZBW 对 经 济 学 词典 


STW ( http://zbw.eu/stw/versions/latest/labout ) 与 其 他 词典 (如 社会 科学 中 的 


TheSoz, http://lod.gesis.org/pubby/page/thesoz/) 在 2004-2005 年 期 间 手 动 创 建 了 数 千 个 映射 。 为 了 描述 映射 ， 


关键 字 之 间 的 关系 通常 用 简单 知识 组 织 系统 (SKOS) 词汇 来 描述 (http:/www.w3.org/2004/02/skos/) > HE 
于 叙 词 表 通 常 有 几 千 甚至 一 万 个 主题 词 和 相应 的 同义词 ， 需 要 用 自动 的 方法 进行 模式 匹配 ， 因 此 ，2012 年 
ZBW 启动 了 比 对 评估 计划 〈OAEI) 。OAEI 旨 在 比较 不 同 的 模式 匹配 技术 ， 并 就 本 体 匹 配方 法 的 评估 达成 


共识 Chttp://oaei.ontologymatching.org/.) 。 


3.3 分 布 式 数据 管理 

LOD 数据 是 是 分 布 式 数据 ， 其 中 VIAF 是 一 个 很 好 的 例子 ， 其 中 有 十 几 个 国际 组 织 合作 构建 分 布 式 图 
书 档案 馆 资源 网 络 ， 不 仅 有 出 版 商 ， 还 包括 个 人 和 组 织 。 为 了 访问 分 布 的 数据 ， 需 要 应 用 联合 查询 技术 ， 
并 且 搜 索 出 数据 源 信 息 及 信息 存储 形式 。 

在 语义 Web 中 ， 研 究 人 员 已 经 开发 了 各 种 不 同 的 技术 ， 如 用 于 关联 打开 分 布 式 数据 的 查询 技术 、 用 于 
对 关联 开放 数据 进行 流 处 理 的 技术 以 及 用 于 搜索 服务 数据 和 数据 源 的 技术 。 然 而 ， 到 目前 为 止 ， 还 不 清楚 
哪 种 方法 最 适合 访问 分 布 式 数据 中 1。 

此 外 ， 在 提供 图 书 档案 馆 搜索 服务 时 ， 还 需要 考虑 搜索 结果 排名 ， 以 便 满足 用 户 的 查找 需求 。 像 网 络 
搜索 一 样 ， 用 户 也 认为 搜索 结果 中 第 一 个 链接 比 其 他 链接 更 重要 或 更 相关 。 为 了 应 对 这 一 问题 ，ZBW 的 


DFG (German Research Foundation ， 德 国 研究 基金 会 ) 项 目 开 发 的 LibRank 实现 了 这 一 目标 


Chttp://www.librank.info/) 。 


3.4 自动 索引 

与 数据 库 社 区 的 索引 概念 相反 ， 在 图 书 档 案 馆 中 ， 索 引 是 指 为 科学 出 版 物 、 档 案 等 文件 分 类 标 出 多 个 
标签 .索引 的 一 种 方法 是 手工 标记 ， 德 国 科学 家 使 用 STW 标记 了 超过 160 万 份 经 济 学 出 版 物 。 这 些 出 版 物 每 
篇 平均 标注 了 5 个 STW 主题 词 。 另 外 ， 运 用 发 布 服务 器 EconStor 实现 了 STW 和 其 他 叙 词 表 的 作者 和 关键 
词 的 自动 发 布 。 

此 外 ， 德 国 国家 图 书 档 案 馆 每 年 出 版 的 电子 出 版 物 数量 显著 增加 ， 需 要 采用 自动 化 的 索引 文献 方法 。 
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为 此 开发 了 用 于 PDF 分 类 的 自动 化 方法 。 如 德国 国家 图 书 档案 馆 的 PETRUS 项 目 使 用 支持 向 量 机 对 100 个 
类 别 〈Sach-gruppen) 进行 分 类 。DFG 资助 的 项 目 GERHARD 在 20 世纪 90 年 代 研 究 了 自动 索引 科学 Web 
内 容 的 方法 。 

研究 人 员 运 用 十 进 制 分 类 法 CUDC) 将 约 100 万 个 文档 自动 编 入 索引 中 。UDC 索引 使 用 3 种 语言 〈 德 
语 、 英 语 、 法 语 ) 。 使 用 Oracle 关系 数据 库 管理 系统 可 以 进行 全 文 索引 〈ConText) 。 科 学 文献 的 自动 化 索引 
迄今 为 止 仍然 是 非常 活跃 的 研究 领域 9 。 

在 最 近 的 ZBW 项 目 中 正在 进行 应 用 关联 开放 数据 自动 索引 科学 文档 的 工作 。 运用 kNN 分 类 器 、 实 体检 
测 和 HITS 算法 来 评估 STW 对 特定 文档 的 匹配 性 。ZBW 开发 应 用 自动 分 度 实验 的 优点 是 不 需要 昂贵 的 培训 


[13] 
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虽然 多 数 人 认为 术语 “自动 索引 ”过 程 中 是 没有 人 的 参与 的 ， 但 上 述 技术 需要 人 为 干预 才能 准确 运行 。 
事实 上 ， 在 运行 过 程 中 需要 图 书 档案 专业 人 员 运 用 专业 知识 不 断 监测 自动 索引 主题 词 的 质量 ， 使 其 能 正确 


有 反映 主题 。 


3.5 索引 非 文本 内 容 

除了 PDF 格式 的 科学 出 版 物 和 图 书 档案 馆 索 引 的 网 站 等 文字 内 容 外 ， 还 有 大 量 的 非 文字 内 容 ， 如 社交 
媒体 和 视听 材料 。 这 些 材 料 包 括 传统 科学 内 容 的 映射 、 社 会 媒体 资料 ， 还 有 研究 数据 ，ZBW 在 欧盟 项 目 
EEXCESS 中 解决 了 这 些 非 文本 内 容 的 索引 问题 Chttp://eexcess.eu/) 。 这 个 想法 是 将 结构 化 科学 内 容 〈 元 数 
据 、 全 文本 、 段 落 、 引 文 和 其 他 内 容 ) 与 社交 媒体 渠道 中 的 非 正式 和 临时 内 容 进 行 自 动 结合 ， 以 便 关 联 主题 、 
对 象 ( 文 本 和 非 文本 资源 ) 以 及 用 户 。 在 实体 解析 、 多 种 模式 索引 以 及 跨 媒体 检索 内 容 方面 也 存在 了 一 些 问 


题 。 

为 了 解决 多 模式 检索 的 问题 ZBW 开发 了 一 种 新 渠道 ， 以 便 更 好 地 理解 包含 在 科学 出 版 物 中 的 图 表 。 
该 渠道 通过 不 同方 法 (如 数据 挖掘 和 计算 机 视觉 等 技术 的 组 合 ) 从 图 表 中 自动 提取 多 项 文本 信息 。 这 人 允许 
对 信息 图 表 进 行文 本 搜索 ， 并 将 其 与 科学 出 版 物 的 文本 内 容 相 结合 "。 


3.6 数据 出 处 

虚拟 国际 权威 文件 《Virtual International Authority File, VIAF) 可 以 使 书目 记录 在 跨 组 织 、 跨 境 、 跨 语 
言 中 检索 。 通 过 匹配 和 链接 开放 权限 的 文件 可 以 降低 成 本 并 增加 授权 文件 的 实用 性 。 然 而 ， 在 跨 境 、 跨 语言 
的 情况 下 ， 出 现 了 新 的 问题 : 如 何 跟踪 数据 /元 数据 〈 重 新 ) 使 用 ? 图 书 档案 馆 A 使 用 图 书 档案 馆 B 的 
《部 分 ) 记录 时 如 何 参考 元 数据 ? 如 何 评估 合并 到 系统 中 的 数据 /元 数据 的 可 信 度 ? 

为 了 解决 跟踪 数据 来 源 的 问题 ， 图 书 档 案 科 学 界 开发 了 用 于 描述 图 书 档 案 馆 资源 的 复杂 模型 。 FRBR 模 
型 可 以 描述 同一 图 书 档案 馆 资 源 的 不 同 变 体 ， 如 同一 本 书 的 不 同 印 刷 本 ， 或 不 同 的 语言 翻译 版 本 


Chttp://www.ifla.org/publications/functional-requirements-for-bib liographic-records) 。 因 此 ， 它 不 仅 适 用 于 书 
籍 ， 也 适用 于 任何 资源 。 另 外 ，RDA 模型 可 以 描述 任何 种 类 的 内 容 ， 包 括 在 线 媒体 。RDA 还 允许 将 信息 来 
源 附 加 到 不 同 的 数据 上 Chttp://www.rda-jsc.org/rda.html) 。Europeana 数据 模型 可 以 查询 创建 元 数据 记录 的 


人 员 和 资源 本 身 的 来 源 Chttp://www.europeana.eu/portal/) 。 
然而 ， 仍 然 缺 少 一 种 能 可 靠 验证 元 数据 来 源 的 方法 。 由 A. Kasten 等 人 开发 的 数字 签名 图 形 数据 的 框架 
可 以 用 来 跟踪 元 数据 的 来 源 。 它 用 数字 签名 来 标记 图 形 并 将 数据 与 网 络 上 的 签名 一 起 发 布 ， 例 如 关联 打开 
数据 。 这 可 以 跟踪 元 数据 的 来 源 ， 建 立 一 个 “信任 网 络 ” 品 。 
此 外 ， 像 语义 搜索 引擎 Sig.ma 这 样 的 应 用 程序 能 够 为 LOD 的 实体 搜索 提供 支持 ， 并 根据 来 源 提供 过 
滤 结果 。 不 幸 地 是 ， 该 项 目 已 经 终止 "9。 
表 1 总 结 了 LOD 技术 在 德国 数字 图 书 档案 馆 的 具体 应 用 及 其 缺陷 ， 揭 示 了 在 图 书 档案 馆 研 究 领 域 LO 
D 技术 进一步 的 研究 方向 。 


#1 图 书 档案 馆 科 学 中 LOD 的 研究 比较 


序号 内 容 L 体 应 用 缺陷 
CQ 1 实体 解析 识别 关联 开放 数据 的 两 种 资源 是 否 指向 同一 需要 人 工 调整 ， 非 常 昂贵 ， 不 能 合并 大 型 
N 个 真实 的 世界 实体 的 问题 数据 集 
2 模式 匹配 定义 和 发 布 自我 描述 的 词汇 ， 通 过 模式 集成 ”需要 人 工 调整 氢 词 表 横 式 匹配 不 同 作品 
来 改进 图 书 档案 馆 服务 
全 3 分 布 式 数据 管理 。 ”用 于 关联 打开 或 查询 在 网 络 上 高 度 分 布 数据 ”不 清楚 访问 分 布 式 数据 的 最 适 方法 ， 需 要 
= 考虑 结果 排名 

4 自动 索引 动 索引 科学 文档 需要 图 书 档案 科学 家 不 断 监测 自动 建议 的 
述 符 的 质量 
= 5 索引 非 文 本 内 容 。 解决 了 传统 科学 内 容 的 映射 、 社会 媒体 资料 、” 实 体 解析 、 跨 媒体 检索 内 容 还 需要 解决 
rz 研究 数据 等 非 文 本 内 容 的 索引 


6 数据 出 处 FRBR 概念 被 并 入 到 RDA 中 ， 以 描述 任何 种 ”缺少 感知 信息 的 来 源 应 用 程序 
类 的 内 容 。Europeana 数据 模型 可 预测 创建 元 
数据 记录 的 人 员 和 资源 本 身 的 来 源 


4 德国 成 功 经 验 对 我 国 的 启示 

数字 化 信息 的 收集 、 储 存 、 应 用 及 长 久保 存 等 诸多 问题 与 数字 技术 与 网 络 技术 的 发 展 密 不 可 分 。 因 此 ， 
德国 图 书 档案 馆 从 1998 年 起 参加 了 欧盟 创建 的 “欧洲 网 络 化 缴 存 图 书馆 ”等 多 个 项 目的 工作 ， 主 要 研究 
数字 资源 保存 和 应 用 等 技术 问题 ， 构 建 基础 的 网 络 平台 ， 开 发 多 媒体 传输 技术 等 系统 ， 研 究 迁 移 和 仿真 信 
息 再 现 技 术 等 。 至今 ， 德 国 图 书 档 案 馆 基于 LOD 技术 开发 出 的 很 多 技术 都 具有 普 适 性 和 应 用 性 。 其 中 一 些 
技术 甚至 为 世界 数字 图 书 档 案 馆 的 发 展 做 出 了 积极 的 贡献 。 推 行 科学 技术 精神 的 德国 品质 也 在 图 书 档案 馆 


I 


的 技术 领域 表现 出 来 ， 其 LOD 技术 在 图 书 档 案 馆 的 应 用 在 国际 上 也 具有 极其 重要 的 地 位 。 

随 着 LOD 中 数据 集 的 快速 增长 ， LOD 技术 在 图 书 档案 馆 信 息 服 务 中 的 应 用 也 越 来 越 广泛 。LOD 在 我 
国 的 图 书 档案 馆 应 用 中 还 存在 着 一 些 不 足 ， 一 些 研 究 还 局 限于 理论 层面 ， 没 有 真正 地 成 为 我 国 图 书 档案 馆 
中 可 操作 的 应 用 技术 ， 而 这 些 技术 可 为 将 来 的 数字 图 书 档案 馆 应 用 提供 基本 技术 支持 ， 且 应 用 广泛 。 通 过 
对 基于 LOD 技术 在 德国 图 书 档案 馆 的 应 用 的 比较 〈 见 表 1) ， 可 为 图 书 档案 馆 中 的 很 多 实践 工作 指明 进 一 
步 的 研究 方向 。 在 我 国 ， 将 LOD 技术 引入 图 书 档 案 馆 已 经 迫在眉睫 ， 通 过 学 习 德 国 的 经 验 ， 基 于 已 有 的 条 
件 搭建 基于 LOD 的 关联 应 用 平台 ， 在 实践 中 应 用 已 有 的 方法 和 工具 解决 相关 问题 ,图 书 档案 馆 利用 这 些 新 
技术 将 会 产生 新 的 服务 。 
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Application of LOD Technology in German Libraries and Archives 


Dong Jie 
Library of Harbin University of Commerce, Harbin 150028 

Abstract: [Purpose/significance] Linked Open Data (LOD) has been widely used in large industries, as well as 
non-profit organizations and government organizations. Libraries and archives are ones of the early adopters of 
LOD technology. Libraries and archives promote the development of LOD. Germany is one of the developed 
countries in the libraries and archives industry, and there are many successful cases about the application of LOD in 
the libraries and archives. [Method/process] This paper analyzed the successful application of LOD technology in 
German libraries and archives by using the methods of document investigation, network survey and content 
analysis. [Result/conclusion] These cases reveal in the traditional field of computer science the relationship among 
research topics related to libraries and archives such as artificial intelligence, database and knowledge discovery. 
Summing up the characteristics and experience of German practice can provide more reference value for the 
development of relevant practice in China. 
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